import os
from src.fileClassifier import FileClassifier

# 待爬取的贴吧URL列表
urlList = [
    'https://tieba.baidu.com/p/5868510485',
    'https://tieba.baidu.com/p/7292610006?see_lz=1&pn=1'
]

def crawlTiebaData():
    """
    爬取贴吧数据的主函数
    """
    print("开始爬取贴吧数据...")
    
    for tiebaUrl in urlList:
        print(f"正在爬取: {tiebaUrl}")
        # 调用Node.js爬虫脚本
        os.system(f"node src/enhancedOPCrawler.js {tiebaUrl}")
    
    print("爬取任务完成！")

def classifyDataFiles():
    """
    分类data文件夹中的文件
    """
    print("\n开始整理和分类数据文件...")
    fileClassifier = FileClassifier()  # 创建文件分类器实例
    fileClassifier.classifyFiles()
    fileClassifier.printClassificationSummary()

def main():
    """
    主程序入口
    """
    print("=== 贴吧树洞数据爬取与整理系统 ===\n")
    
    # 步骤1: 爬取贴吧数据
    crawlTiebaData()
    
    # 步骤2: 分类整理文件
    classifyDataFiles()
    
    print("\n所有任务执行完成！")

if __name__ == "__main__":
    main()


